iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 3
0
AI & Data

AI&Machine Learning系列 第 3

Data 大數據(攝取資料)

  • 分享至 

  • xImage
  •  

本篇會以大數據(攝取資料)來做為介紹,對於本人來說即是使用python 來做於大數據收集所以大多資訊會以python為主。

Python 現在很夯的語言,因為它具有GOOGLE後台的AI資源以及模組化的各項設計,加上語法非常貼近我們日常使用,所以變成大眾化的程式語言。

攝取資料:
  對於攝取資料方式,大多都以網路來說,對於網路攝取資料方式,相信大家都不陌生,即是使用網路爬蟲來解決,分析HTML資料後再藉由爬蟲模組化功能將HTML相對應資料擷取下來做使用。

相信有用過python的人,多少都知道Jupyter notebook,此工具適合拿來做大數據使用,因為背景是以網頁架構設計,所以攝取下來的資料都非常完整以及工整,若是一般的IDE可能沒有他這麼的方便,再來IDE決定清楚之後再來針對爬蟲所需要的資料來使用對應的模組,request 以及 beautifulsoup4,這兩個非常常見在使用網路爬蟲上,這兩個部份一個是針對網路性質抓取對應HTML資料下來(request),另外一個即是將HTML資料做解析並且抓取想知道的資料(beautifulsoup4)

import request
from bs4 import BeautifulSoup

url = "輸入您要的網址"

html = request.get(url)
print (html.text)

以上小段的程式碼,此示範為將一個所需要的網站內容透過python內部的request方式抓下來並且收錄到自己的參數中,後續可以針對網頁的特性關西可以使用beautifulsoup4方法來抓取
https://ithelp.ithome.com.tw/upload/images/20190918/20120312KYqMFmGeqM.png
根據圖片中的 class為主 以及 id 利用beautifulsoup4 抓取只要注意一般的標籤名子 a t div 等等 都是一般標籤名,如果遇到類別 class 以及 特殊名子 id 需要用對應方法

class => soup.select('.modal-dialog')

id => soup.select('#AtUser')

這樣以上介紹即可做到想到抓到的相關資料,以上為不專業介紹,請各位海涵,後段會再介紹細節部分,那我們下篇見~


上一篇
AI&Data&Machine-Learning 基本介紹
下一篇
Data 大數據(彙整資料)
系列文
AI&Machine Learning30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言